查看原文
其他

[ACM MM 2022] 解耦检测与识别:单阶段自依赖场景文本识别器

伍晶晶 CSIG文档图像分析与识别专委会 2022-12-15

本文简要介绍ACM MM 2022录用论文“Decoupling Recognition from Detection: Single Shot Self-Reliant Scene Text Spotter”的主要工作。该工作对于文本端到端检测和识别问题,提出了SRSTS方法,该方法创新性地提出基于采样的识别策略,利用采样点的特征进行识别任务,避免了传统端到端方法使用检测框提取特征的操作。因而检测和识别可以完全解耦。该方法的优势在于:(1)削弱了文本检测和识别的关联性,避免了从检测到识别的误差传递。(2)基于采样的识别策略使得即使在检测不准确时,识别模块仍然有能力输出正确结果。

一、背景



场景文本的端到端检测识别任务旨在定位及识别自然场景图片中的文本实例。由于自然场景中的文本形状、字体及风格迥异,该任务仍然充满挑战性。目前的端到端方法大体上可以分为:双阶段方法以及单阶段方法。双阶段方法常常先做文本定位,利用文本框裁剪出文本实例的局部特征,最后利用局部特征进行识别。这种方法具有两个局限:(1)文本识别的表现高度依赖于识别的精度,会造成从检测到识别的误差传递;(2)特征裁剪操作可能会带来背景噪音的干扰,以及由池化或插值操作带来的信息损失。现有的单阶段方法较少,且均有一定的局限性,如:需要字符级的标注、推理时间长以及性能不理想等。

针对上述的问题,本文提出了一个仅需要单词级别标注的单阶段端到端方法,将检测和识别进行解耦,从而可以并行地进行文本检测和文本识别,并借助于锚点将检测与识别结果相关联。实验证明该方法在ICDAR 2015和Total-Text数据集上均可以达到State-of-the-art的端到端识别效果。受益于并行的框架设计,该方法在时效性上也明显优于其他方法。

二、方法简述



图1  SRSTS的模型框架图

SRSTS的模型整体框如图所示,包括四个部分:特征提取器、锚(Anchor )估计器、文本检测器以及文本识别器。

特征提取器:SRSTS的特征提取器借鉴了BiFPN[1]的框架,ResNet 50作为下采样路径,产生多尺度的特征图,上采样路径则将不同尺寸的特征图进行融合,最终输出尺寸为原始输入图像的1/4×1/4以及1/8×1/8两个尺寸的特征图。

锚估计器:本部分用于预测每个潜在文本实例的正锚点(Positive Anchor Points),在后处理时,正锚点将作为文本检测和文本识别的参考位置。锚估计器会产生置信度图,该图上每个像素点的值即为该点作为正锚点的概率。为了提高定位的准确度,文本实例按照尺寸大小分配到不同尺寸的置信度图上,由于文本实例的高度通常决定了文本包含的字符大小,标签分配参考的是文本的高度。

文本检测器:当提供了锚定位点后,文本检测器便可输出文本实例的多边形外包。这里的文本检测器采用实例分割方法YOLACT[2],该方法对于每个锚点会输出其对应文本实例的水平框、以及实例分割所需的Prototype和相应的系数,最后在正锚点的指导下,在文本水平框内将Prototype和系数线性组合便能够得到具体的文本Mask。

文本识别器:在锚的指导下,文本识别器可以同步输出识别结果。文本识别器不需要依赖于精确的检测框,只需要在锚的附近进行采样,并基于采样点的特征进行解码。由于高质量的采样点通常需要覆盖文本实例中的所有字符,这里对采样点进行了弱监督:在预训练阶段,以文本中心线作为监督信息,引导采样点均匀分布于文本中心线,而在微调阶段,采样点仅间接地受识别损失的监督。

三、模型训练



模型的总体损失定义为:

其中是Dice Loss,用于监督锚估计器;同YOLACT一样,用于监督Prototype和Weights的学习。是采样模块的损失,是识别损失。需要注意的是,的系数仅在预训练阶段为非零值,而在微调阶段为0。及均只作用于正锚定点。

四、主要的实验结果及可视化结果



该方法在广泛使用的数据集ICDAR 2015以及Total-Text上进行了实验验证。

可视化结果如下:

图2  在Total-Text和ICDAR 2015上的可视化结果

下面是主要的实验结果:

表1  采样模块不同监督方式的对比。Unsupervised Sampling:采样点模块仅由识别损失间接监督;Weakly Supervised Sampling:在预训练阶段用采样点损失进行直接监督,在Fine-tune阶段只由间接监督。Fully Supervised Sampling:在预训练和Fine-tune阶段都参与监督采样点模块

表2 增加额外的Anchor Point 标注的影响。Base:提供多边形标注的训练数据;B:只提供Anchor Point标注的训练数据

表3  在ICDAR 2015上与其他模型的比较

表4  在Total-Text上与其他模型的比较

表5  使用基于CTC的识别模块和基于Attention的识别模块的性能对比

表6  和双阶段方法ABCNet v2[3]的对比。Parameters:参数量;None:在Total-Text不使用词典时的端到端结果;Error Rate:当检测结果和Groundtruth之间的IOU大于0.5时,识别结果错误的比例

五、总结及讨论



本文设计了一个场景文本端到端识别方法SRSTS。该方法的核心思想是解耦检测与识别,在锚点的指导下,在锚点的附近进行采样,并利用采样点的特征进行识别,从而避免了特征裁剪操作,更避免了检测到识别的误差传递。得益于这样的设计,本文的方法能够并行地进行文本检测和识别。从实验结果可以看出,该方法在精度和速率方面均超过现有的方法。本文的方法在端到端识别任务上,探索了检测与识别解耦的可能性。
  • 论文下载地址:https://arxiv.org/abs/2207.07253

参考文献



[1] Mingxing Tan, Ruoming Pang, and Quoc V Le. 2020. Efficientdet: Scalable and efficient object detection. In CVPR. 10781–10790.
[2] Daniel Bolya, Chong Zhou, Fanyi Xiao, and Yong Jae Lee. 2019. Yolact: Real-time instance segmentation. In CVPR. 9157–9166.
[3] Yuliang Liu, Chunhua Shen, Lianwen Jin, Tong He, Peng Chen, Chongyu Liu, and Hao Chen. 2021. ABCNet v2: Adaptive bezier-curve network for real-time end-to-end text spotting. arXiv preprint arXiv:2105.03620 (2021).


原文作者Jingjing Wu, Pengyuan Lyu, Guangming Lu, Chengquan Zhang, Kun Yao, Wenjie Pei

撰稿:伍晶晶
编排:高 学
审校:连宙辉
发布:金连文 




免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。

往期精彩内容回顾



欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫码关注,获取最新OCR资讯



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存